iT邦幫忙

2022 iThome 鐵人賽

DAY 5
0
AI & Data

人類行為數據分析- 以R和Python進行實作系列 第 5

[Day5] 敘述性統計(Descriptive statistics)

  • 分享至 

  • xImage
  •  

除了透過資料視覺化來探索資料外,敘述性統計(描述性統計)也能幫助我們對於資料有更全面的了解。
敘述性統計為以統計學的角度來描繪資料情況(如:集中趨勢、離散程度、資料出現次數、資料分佈)的方法,在進行資料描述時,務必先確認各個欄位的型態(連續/類別),根據型態不同,所使用的統計量亦有所不同。

  1. 數值變數:

    統計量 R Python(以numpy舉例,縮寫np)
    最小值 min(data) np.min(data)
    最大值 max(data) np.max(data)
    全距 range(data) np.ptp(data)
    平均數 mean(data) np.mean(data)
    中位數 median(data) np.median(data)
    第一四分位數 quantile(data,0.25) np.percentile(data, 25)
    第三四分位數 quantile(data,0.75) np.percentile(data, 75)
    四分位距 IQR(data) np.subtract(*np.percentile(data, [75, 25]))
    標準差 sd(data) np.std(data)
    變異數 var(data) np.var(data)
    包含多個統計量 summary(data) data.describe()
    偏態 skewness() (TSA套件) stats.skew(data) (scipy.stats套件)
    峰態 kurtosis() (TSA套件) stats.kurtosis(data) (scipy.stats套件)
    相關係數 cor() np.corrcoef(x,y)

若要根據組別進行敘述統計,可使用

# R
by(資料, 組別變數, summary)
# Python
df.groupby(組別變數).describe()
  1. 類別變數 (列連表)
# R 
table()
xtabs()
prop.table()  
margin.table()
ftable()

# Python (Pandas套件,簡稱pd)
pd.pivot_table
pd.crosstab()

上一篇
[Day4] 資料視覺化(Data visualization)
下一篇
[Day6]遺失資料(Missing data)處理
系列文
人類行為數據分析- 以R和Python進行實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言